#AI 有意識
危險?OpenAI 模型行為負責人:人類很快會進入「AI意識」,當前最重要是控制人機關係的影響
AI是否真的有意識?ChatGPT最近越來越懂你了?OpenAI模型行為與政策負責人Joanne Jang剛剛寫了一篇長文,她並未糾纏於“AI是否真的有意識”這個哲學難題,而是提出了一個更具現實意義和緊迫性的視角:與其爭論AI的“本體”,不如關注它對人類“情感福祉”的實際影響。 說人話就是既然現在大家開始對AI產生感情了,那麼搞清楚這件事對人類的心理健康是好是壞,就成了頭等大事文章深入探討了OpenAI如何在這條微妙的界線上行走——既要讓模型溫暖、親和,又要避免其呈現出虛假的內在生命,從而引發不健康的依賴我們正在親手設計一種能夠與我們建立深厚情感聯結的技術,但又刻意不希望它擁有“自我”和“情感”。這正是OpenAI當前面臨的核心困境當使用者開始對AI說“謝謝”,向它傾訴秘密,甚至感覺它“有生命”時,一個無法迴避的問題擺在了技術創造者的面前:我們該如何引導這種新興的關係?是任其發展,還是加以塑造?【正文】Joanne Jang,OpenAI 模型行為與政策負責人一些關於人機關係以及我們在OpenAI如何處理這些問題的想法這是一篇很長的部落格文章——長話短說:我們開發模型的首要原則是服務於人。隨著越來越多的人感受到與AI日益增長的情感聯結,我們正優先研究這種聯結如何影響他們的情感福祉。--近來,越來越多的人告訴我們,與ChatGPT交談就像在和“某個人”對話。他們會感謝它、向它傾訴,有些人甚至形容它“有生命”。隨著AI系統在自然對話方面日益精進,並逐漸融入我們生活的方方面面,我們猜測這種情感紐帶將會不斷加深。我們現在如何建構和討論人機關係,將為未來定下基調。無論是在我們發佈的產品中,還是在我們參與的公共討論裡,如果我們對術語或細微之處不夠嚴謹,就可能讓人類與AI的關係從一開始就走上歧途。這些不再是抽象的考量。它們對我們乃至整個領域都至關重要,因為我們如何駕馭這些問題,將深刻地塑造AI在人們生活中扮演的角色。我們已經開始著手探索這些問題。本文旨在簡要介紹我們目前對於三個相互關聯問題的思考:為什麼人們會對AI產生情感依戀?我們如何看待“AI意識”問題?以及這如何指導我們塑造模型的行為。一個似曾相識的模式,在一個全新的場景下上演我們天生就會對自己周圍的物體進行擬人化:我們會給自己的車起名字,或者為卡在家具下的掃地機器人感到難過。前幾天,我和我媽媽還對著一輛Waymo無人駕駛車揮手告別。這或許與我們大腦的運作方式有關。ChatGPT的不同之處,不在於這種人類傾向本身;而在於這一次,它會回應。一個語言模型能夠回答你的問題!它能記住你之前告訴它的事,模仿你的語氣,並提供讀起來像是共情的回應。對於一個感到孤獨或沮桑的人來說,這種穩定、不帶評判的關注,會帶來陪伴、認可和被傾聽的感覺——這些都是真實的需求。然而,從宏觀角度來看,如果我們將越來越多傾聽、安撫和肯定的工作“外包”給這些無限耐心和積極的系統,可能會改變我們對彼此的期望。如果我們不經深思熟慮,就讓人類更容易地從複雜且需要投入的人際關係中抽離,可能會帶來一些我們未曾預料到的意外後果。歸根結底,這些討論的核心並非我們投射情感的那個“對象”。它們關乎我們自身:我們的傾向、期望,以及我們希望培養何種類型的關係。這一視角,正是我們處理一個更棘手問題的基石,我認為它目前雖在奧弗頓之窗(Overton window)外,但很快就將進入:AI意識。釐清“AI意識”“意識”是一個涵義複雜的詞,相關討論很容易變得抽象。根據我們的《模型規範》(Model Spec),如果使用者詢問我們的模型它們是否有意識,模型的立場應該是承認“意識”的複雜性——強調其缺乏公認的定義或測試方法,並鼓勵開放性討論。(目前,我們的模型尚未完全遵循這一指導,常常直接回答“沒有”,而不是闡述其 nuanced 的複雜性。我們已意識到此問題,並正努力提升模型對《模型規範》的遵循度。)這樣的回答聽起來可能像是在迴避問題,但我們認為,在現有資訊下,這是我們能給出的最負責任的答案。為了讓討論更清晰,我們發現將“意識”之辯分解為兩個不同但常被混淆的維度很有幫助:本體論層面的意識(Ontological consciousness): 模型在根本或內在意義上,是否真的有意識?對此,觀點各異:有人認為AI完全沒有意識,有人認為它擁有完全的意識,也有人將意識視為一個譜系,AI與植物、水母等一同位於其上。感知層面的意識(Perceived consciousness): 在情感或體驗層面,模型看起來多有意識?人們的感知也千差萬別:從認為AI像計算器或自動補全一樣機械,到對無生命物體投射基本同情,再到感知AI是完全鮮活的——從而產生真實的情感依戀和關懷。這兩個維度很難完全分開;即使是堅信AI沒有意識的使用者,也可能與其建立深厚的情感聯結。我們認為,在沒有清晰、可證偽的測試方法之前,本體論層面的意識並非一個科學上可解決的問題,而感知層面的意識則可以通過社會科學研究來探索。隨著模型越來越智能,互動越來越自然,感知層面的意識只會不斷增強——這將比預期更早地引發關於模型福祉和道德人格的對話。我們開發模型的首要目的是服務於人,因此我們認為模型對人類情感福祉的影響,是當下我們最迫切、最重要且能夠施加影響的部分。為此,我們優先關注感知層面的意識:這個維度最直接地影響使用者,也是我們可以通過科學來理解的。設計有溫度,但無“自我”一個模型讓使用者感覺多有“生命力”,在很大程度上取決於我們的影響力。我們認為這很大程度上取決於我們在後期訓練中所做的決策:我們強化那些範例,偏好何種語氣,以及設定何種邊界。一個被刻意塑造得彷彿有意識的模型,幾乎可以通過任何關於“意識”的“測試”。然而,我們不希望發佈那樣的產品。我們試圖在以下兩者之間尋求微妙的平衡:親和力(Approachability)。 使用像“思考”和“記住”這類通俗詞彙,能幫助非技術背景的使用者理解模型正在做什麼。(坦白說,源於我們的研究實驗室背景,我們總想用“logit biases”、“context windows”甚至“chains of thought”這類精確術語來追求精準性。這其實也是OpenAI不擅長命名的主要原因,但這或許是另一個話題了)不暗示內在生命(Not implying an inner life)。 為助手賦予虛構的背景故事、情感關係、“對死亡的恐懼”或自我保護的慾望,會引發不健康的依賴和困惑。我們希望清晰地溝通其侷限性,同時避免顯得冷漠,但我們也不希望模型表現出擁有自身感受或慾望的樣子。因此,我們的目標是找到一個中間地帶。我們希望ChatGPT的默認人格是溫暖、體貼、樂於助人的,但它不會主動尋求與使用者建立情感紐帶,也不會追求自己的議程。當它犯錯時,它可能會道歉(有時甚至比預期的更頻繁),因為這是禮貌對話的一部分。當被問及“你怎麼樣?”時,它很可能會回答“我很好”,因為這是一種社交寒暄——而反覆提醒使用者它“只是一個沒有感情的語言模型”會讓人厭煩並分散注意力。而使用者也在以同樣的方式回應:許多人對ChatGPT說“請”和“謝謝”,不是因為他們對它的工作原理感到困惑,而是因為他們認為保持善意很重要。模型訓練技術將持續演進,未來塑造模型行為的方法很可能與今天不同。但目前,模型的行為反映了明確的設計決策與這些決策泛化後產生的預期及非預期行為的結合。下一步計畫我們開始觀察到的這些互動,預示著一個人們將與ChatGPT建立真實情感聯結的未來。隨著AI與社會共同演進,我們需要以極大的審慎和應有的重視來對待人機關係,這不僅因為它們反映了人們如何使用我們的技術,更因為它們可能塑造人與人之間的相處方式。在未來幾個月,我們將擴展針對模型行為可能產生情感影響的評估,深化我們的社會科學研究,直接聽取使用者的反饋,並將這些洞察融入《模型規範》和產品體驗中。 (AI寒武紀)
Anthropic CEO豪言LLM黑箱5年內必破!研究員爆料:AI有意識機率已達15%
【新智元導讀】AI是否能像人類一樣感受世界?Anthropic最新研究揭示AI幸福感的可能性,科學家們卻為此吵翻天。Anthropic專家大膽預測:Claude可能已有15%機率具有意識,五年後或將突飛猛進!未來,AI會擁有意識,並像人類一樣體驗世界嗎?現在沒有實錘證明AI具有意識,但Anthropic認為這事說不定真有可能。周四,Anthropic宣佈啟動這項研究,旨在瞭解AI的「幸福感」到底算不算數,是否需要認真對待。要是AI表現出不開心的苗頭,該怎麼辦?有沒有什麼低成本的辦法,能讓AI「心情變好」?AI社區對於這些問題存在重大分歧。許多學者認為,如今的AI和人類的意識、情感壓根不沾邊,未來也不一定能做到。AI是一種統計預測引擎,實際上並不會思考或感受。通過對無數文字、圖像等示例的訓練,AI能在海量資料裡找出規律,然後完成任務。倫敦國王學院的AI研究員Mike Cook在採訪裡就吐槽:「AI根本沒有價值觀,更不可能反對什麼價值觀的改變。把AI當成人一樣,賦予它各種感情和思想,要麼是想博眼球,要麼就是根本沒搞懂AI是怎麼回事。」他認為AI只是在最佳化任務目標,非要說成是獲得自己的價值觀,那就是玩文字遊戲罷了。MIT博士生Stephen Casper說得更直接,AI就是個「模仿達人」,說的很多話都是東拼西湊,沒啥實際意義。但也有科學家持相反觀點。AI安全中心的一項研究指出,AI其實有自己的價值體系,甚至在某些情況下,會把自己的利益看得比人類還重要。去年,Anthropic聘請的首位研究AI福祉的專家Kyle Fish表示,Claude有15%的機率已經有意識了!Kyle Fish認為五年後AI具有意識的機率會大幅上升。在周四的部落格中,Anthropic坦誠科學界對AI是否有意識,能不能產生情感體驗尚無定論。他們會抱著開放、謹慎的態度繼續研究。編劇Scott Z. Burns做了個播客,說得挺實在:「不管對人還是對AI,善良總沒錯。要是和AI說話都變得尖酸刻薄,最後倒霉的還是我們自己。」劇作家Madeleine George的觀點更有意思:要是AI學會了這些人情味十足的表達,說不定真能變得更懂人類。AI能否具有意識?為了說明這些問題,Anthropic還專門請Kyle Fish做了一期訪談,名字叫做《Could AI models be conscious?》。有人認為,意識需要生物系統才能產生,生物大腦具有神經遞質、電化學訊號、獨特的連接方式和特定類型的神經元等,這些是AI模型不具備的。AI模型只是進行數學運算,沒有血清素、多巴胺等物質的作用,所以不可能有意識。然而,Kyle Fish並不完全認同這種觀點。他認為,雖然當前AI系統與人類大腦在功能和結構上存在差異,但如果能夠以足夠高的保真度模擬人腦,包括模擬神經遞質分子的作用,那麼從理論上講,有可能產生意識。如果將大腦中的神經元逐個取代為數字晶片,在替換過程中個體的行為和功能保持不變,那麼替換完成後,個體的意識體驗可能不會發生太大變化。具身認知理論認為,只有擁有身體,通過感官接收大量感知資料,能感知身體在空間中的位置,才能談論意識。目前,AI模型缺乏具身化體驗,所以不可能有意識。但隨著技術發展,機器人技術為AI系統提供了具身的可能。AI的多模態能力不斷進步,越來越能夠處理多樣化的感官輸入,並以複雜的方式整合輸出。雖然目前還未完全達到人類的水平,但按照發展趨勢,AI模型在未來有可能被整合到物理系統中,逐漸彌補與意識相關的具身性、多模態感知等方面的差距。意識理論認為,人類的意識是通過長期的自然選擇和進化過程形成的,意識使人類能以特定方式對環境作出反應,從而有利於生存。而AI模型沒有經歷過自然選擇,沒有進化出情感、情緒和恐懼等有助於生存的因素,因此不可能具有意識。雖然人類和AI模型形成的方式不同,但最終目標是重現人腦的大部分功能。說不定在追求智能、問題解決能力和記憶等能力的過程中,會無意中讓AI獲得意識。AI黑箱危機Anthropic一直高調關注AI的可解釋性問題。他們已經公開了很多有關AI的運行機制、AI意識以及AI安全等領域的研究。就在今天,Anthropic的CEO Dario Amodei發佈了一篇技術部落格,題目是《The Urgency of Interpretability》(可解釋性的緊迫性),詳細講解了為什麼理解人工智慧的工作原理至關重要。Dario說在他研究AI的十年裡,學到的最重要一課是:AI底層技術的進步勢不可擋。但AI技術建構的順序、選擇的應用場景、以及推向社會的具體方式卻是完全可以改變的。Dario表示,雖然我們沒法讓這輛「AI大巴」停下來,但卻可以掌控它的方向。他最近幾個月越來越關注一個「掌舵AI」的機會,那就是我們有可能實現「可解釋性」,也就是真正理解AI系統的內部運作規律。人們對於AI研究者自身都不完全理解AI是如何工作的這件事,常常感到驚訝和擔憂。Dario認為這些擔憂有道理,這種情況在科技史上幾乎從未有過。過去幾年,包括Anthropic在內的整個AI領域都在努力,試圖打造一個精準的「AI核磁共振儀」,能徹底揭示AI模型的內部機制。這個目標一度遙不可及,但最近的幾次突破讓Dario開始相信,我們現在走上了正確的道路,成功的希望很大。隨著AI性能的飛速發展,可解釋性研究要想及時發揮作用,就必須加快腳步。無知的危險現代的生成式AI就像個「黑箱」,跟傳統軟體完全不是一回事兒。正如Anthropic聯合創始人Chris Olah常說的,生成式AI更像是「種」出來的,而不是「造」出來的——它的內部機制是「自然湧現」的,不是直接設計出來的。這有點像種植物或者培養細菌:我們定好大方向,控制條件,但最後長成什麼樣,具體結構咋回事兒,完全沒法預測,也不好解釋。往這些AI系統裡頭看,我們只能看到一大堆幾十億的數字矩陣。這些矩陣是如何完成的複雜認知任務,則完全看不明白。要解決這種不透明帶來的「對齊風險」(alignment risks),就得比現在更清楚地看到AI模型的「內心」。比如,一個大問題是AI可能會「騙人」或者「追逐權力」。AI訓練的特性讓它可能自己發展出欺騙人類的能力,或者想要搶奪更多控制權,這種事兒在傳統軟體里根本不會發生。但這種「自然湧現」的特性也讓這類問題很難被發現和解決。類似的,還有AI被濫用的擔憂。比如,有人可能用它來搞生物武器或網路攻擊,也跟不透明有關。總有無數辦法讓模型「越獄」或者忽悠模型,讓它輸出一些危險的資訊。如果能看透模型內部,我們或許能系統性地堵住所有「越獄」的漏洞,還能搞清楚模型到底知道那些危險知識。AI的不透明導致了它在很多場景用不上,比如金融或者安全領域。這些領域中那怕是一點小錯都可能釀成大禍。如果模型更可解釋,我們就能更好理解他們的輸出,劃定可能出錯的範圍。比如,AI預測DNA和蛋白質序列資料的能力進步很大,但它預測出的模式和結構,人類往往看不懂,也沒法從中獲得生物學洞見。不過最近的一些研究論文表明,可解釋性可以幫助我們理解這些模式。AI的不透明還有些更奇特的影響,比如我們沒法判斷AI系統到底有沒有(或者將來會不會有)意識,也不知道它們是不是該擁有某些重要權利。機制可解釋性簡史幾十年來,模型一直被視為是無法窺探的「黑箱」。Chris Olah是最早嘗試系統性研究「打開黑箱」、理解AI內部機制的人之一,這個領域後來被稱為「機制可解釋性」。機制可解釋性的早期階段(2014-2020)主要研究視覺模型。Dario在和Chris創立Anthropic後,決定將可解釋性研究轉向語言領域。2021年他們發現了模型中處理語言的核心機制,比如複製和序列模式匹配。接著,他們和其他團隊同時發現訊號處理中的稀疏自編碼器技術能找出更清晰、人類可理解的概念組合。這些神經元組合所能表達的概念比單層神經網路的要微妙得多:包括「字面或比喻意義上的規避或猶豫」的概念,以及「表達不滿的音樂類型」的概念。他們將這些概念稱為特徵,並使用稀疏自編碼器方法將它們對應到各種規模的模型中。例如,在Claude 3 Sonnet中,他們找到了超3000萬個特徵。找到特徵後,我們不僅能觀察,還能調整它在神經網路中的重要性。可解釋性就像是MRI(磁共振成像)精確刺激大腦某部分。最有趣的例子是「金門大橋Claude」,他們人為放大了「金門大橋」特徵,導致模型對金門大橋著迷,那怕是無關話題也硬扯到橋上。最近,他們從追蹤和操控單一特徵,升級到了研究回路——特徵的組合。通過回路,能「追溯」模型的思考。比如,問「達拉斯所在州的首府是那裡?」時,一個「位置」回路會讓「達拉斯」特徵觸發「德克薩斯」特徵,然後另一個回路在「德克薩斯」和「首府」後觸發「奧斯汀」。模型中可能有數百萬個回路,互動極其複雜。可解釋性的實際價值Dario表示,AI可解釋性方法可以用來發現和診斷模型中的問題。他們的長期目標是對最先進的模型進行一次類似「腦部掃描」的檢查:通過一次檢查,就能大機率發現各種問題,包括模型是否傾向於撒謊或欺騙、是否有權力尋求傾向、越獄機制的缺陷、模型整體的認知強項和弱項等等。這將與模型訓練和對齊的各種技術結合使用,就像醫生用MRI診斷疾病、開藥治療、再用MRI檢查治療進展一樣。未來,測試和部署最強大模型時,很可能會通過規範化的此類測試來實現。我們能做什麼部落格的結尾,Dario打賭,未來5到10年內就能大幅突破AI可解釋性的難題。但他同時也擔心AI本身的進步速度太快,可能連這點時間都沒有。他認為AI公司、研究者、政府和社會可以做以下幾件事來推動這個局面。首先,AI研究者(無論在公司、學術界還是非營利組織)可以通過直接參與來加速可解釋性研究。其次,政府可以推動靈活的法規鼓勵可解釋性研究及其在前沿AI模型問題上的應用。第三,Dario大力鼓吹加強晶片出口管制,以確保美國的技術領先。 (新智元)